在报告最开头,柳昀哲老师举了四个心理学的经典研究来引出本次报告“How to learn efficiently”的主要内容。这四个经典研究分别对应了本次报告的四个方面: 1. Learning actions directly from reward(直接从奖励学习)2. Learning from reward in complex state spaces (在复杂的状态空间中学习)3. What do those state spaces look like?(状态空间的结构是怎样的)4. Can we make better state spaces to make learning easy?(如何构建更好的状态空间使学习更加高效) 5. Making state spaces that are good for other things too (like planning) (状态空间用于其他任务,如规划任务)6. Making state spaces from bits of other state spaces (从其他状态空间构建新的状态空间)以下我们也将从这六个方面来对这次柳昀哲老师分享报告进行总结。
图1:Mastering the game of Go with deep neural networks and tree search, Silver et al (2016)[4]
在人工智能与生物智能中,无模型的学习与基于模型的学习都可以互相结合来提高表现。在AlphaGo [Silver et al 2016, Nature][4]中,基于模型的树搜索与无模型的Q-learning相结合,通过树搜索N步之后停止,之后的用价值函数替代,如图1,成功将基于模型(数据效率高,价值函数更新速度快)和无模型(复杂度低,表达性强)的优势结合起来。
图2:前额叶和背外侧纹状体系统之间基于不确定性的行为控制竞争,Daw et al (2005)[3]
在生物智能中,有许多研究发现大脑同时利用了基于模型的和无模型的算法,并且两种算法在大脑当中同时存在竞争与合作的关系。 在图2的这篇文章中[Daw et al 2005, Nature Neuroscience][3],作者用小鼠的行为数据论证了基于模型的算法与无模型的算法的竞争关系是与不确定性相关的,即大脑会利用不确定性低的算法:在任务初期,基于模型的算法能够更快的学习到价值函数也就有着更小的不确定性;在任务后期,无模型的算法能够在这种稳定的环境中学习到更加稳定、准确的价值函数,此时无模型的算法的不确定性更小。 在图3的这篇文章中[5],作者用人类被试的行为数据论证了大脑当中同时使用了无模型与基于模型的算法,因为被试的行为数据的模式不同于纯的无模型的算法或基于模型的算法(模拟数据),而更接近于无模型的算法与基于模型的算法的混合。
图3:基于模型的对人类选择的影响和纹状体预测的误差, Daw et al (2011)[5]
在大脑中,无模型的算法的实现与前额皮质系统有关,而基于模型的算法的实现与背外侧纹状体系统有关,除此之外还有许多研究表明[Miller et al 2017] [6]海马体与基于模型的算法的实现也有紧密的联系。3. What do those state spaces look like?(状态空间的结构是怎样的?) 柳老师向我们阐述了生物如何对物理空间进行建模,以解释状态空间的概念。寻路过程中,生物需要将自己所处的物理空间进行建模,需要对特定地点进行记忆,并判断距离,进行路径规划。为了实现这些目的,生物的大脑需要拥有一种高效的神经机制。 研究发现,海马(Hippocampus)中的位置细胞(Place cell)与该功能密切相关。随后,研究者又发现了多种细胞类型,包括网格细胞(Grid Cell)和方向细胞(Object Vector Cell)等(图4)。在这些细胞中,位置细胞和网格细胞是最重要的两种,分别负责特定位置的表征和相对位置的表征。后续的研究发现,这些细胞不仅可以表征物理空间,还可以表征抽象空间,例如人际关系和物体相似性等。图4 物理空间表征相关的神经细胞[7][8][9][10][11][12][13][14] 4. Can we make better state spaces to make learning easy?(如何构建更好的状态空间使学习更加高效) 在这一小节,柳老师主要讲了我们如何建立起更好的状态空间。在真实世界中,状态、动作空间都是连续的,我们不可能使用表格来对每一个状态进行表征。在强化学习中对于连续状态、动作空间的处理就是:方程约化 (Function approximation)。目前最火的方程约化的方式就是神经网络,神经网络+强化学习=深度强化学习(图5)。 深度强化学习实际上就是深度学习强大的表征能力与强化学习算法结合,使得强化学习能够应用在更多领域。但是深度学习与深度强化学习学习出来的状态表征实际上是不同的,原因在于深度强化学习仍然也是从奖励信号来学习的。相关研究[Cross, et al, 2021, Neuron][15]中发现:与基于深度学习得到的状态表征相比,基于深度强化学习得到的状态表征可能更加接近真实大脑中的状态表征。
图5:深度强化学习 5. Making state spaces that are good for other things too (like planning)(状态空间用于其他任务,如规划任务)
图6:海马体是一种预测性地图, Stachenfeld et al (2017)[16] 在相关研究中表明,见[Stachenfeld et al, 2017, Nature Neuroscience][16],与实时的表征相比,大脑对于位置的表征更接近于预测性的表征(编码当前状态的累计频率)(图6)。在报告中柳老师还提到了一个问题:How do we get these state spaces that our input is sensory? 从贝叶斯统计的角度来看,我们可以通过感官数据来推测出隐变量 (Latent variables) : 另一方面我们还可以使用生成模型来得到状态表征,例如VAE [Kingma & Welling 2013][17](图7),或GAN [Goodfellow et al 2014][18]。 【NCC Lab 注】生成模型(Generative model)是一种可以生成数据的模型(生成的数据应类似于真实数据)。例如,我们接收了从分布P_data取样的若干样本构成我们的训练集,我们的模型可以学习到一个能够模拟这一分布的概率分布P_model。从而通过对P_model采样,可以生成以假乱真的数据。常见的生成模型有autoregressive模型、VAE、GAN、flow模型及其变种等等。 图7:VAE (Variational auto-encoder)示意图, Kingma & Welling (2013)[17] 6. Making state spaces from bits of other state spaces(从其他状态空间构建新的状态空间) 最后一部分,柳老师讲述了如何通过已有的状态空间来构建新的状态空间。解耦/组合(Disentangling/Factorizing)表征指状态空间可以被分成多个独立的子状态空间。 如图8所示[19],可以看到,物体的整体特征可以由许多个单独的特征共同来描述。在具体实现上也非常简单,在上述的VAE的loss中加入对隐变量解耦程度的惩罚项就可以使其中的单个隐变量能够对应单个特征。图8 解耦状态空间, Behrens et al (2018)[19]
